Filtrage de textes dans le but de produire un résumé de documents multiples
نویسندگان
چکیده
RÉSUMÉ. Dans le cadre de la conférence d’évaluation DUC, nous avons développé un système de résumé automatique de documents multiples qui se base sur l’extraction des phrases clés. La méthode proposée utilise un algorithme génétique qui permet de combiner les phrases des documents sources pour former les extraits, qui seront croisés et mutés pour générer de nouveaux extraits. L’examen des résultats obtenus dans les deux sessions DUC’04 et DUC’07 a montré un écart significatif au niveau des performances du système développé. En effet, un phénomène de dérive génétique est observé lorsqu’on traite, en entrée de notre système, des textes de grande taille. Afin de remédier à cette dérive, nous proposons d’intégrer un module supplémentaire de filtrage qui a pour objectif la réduction du nombre des phrases des textes sources en entrée. Ce filtrage est effectué sur la base de la notion de dominance entre phrases qui permet d’éliminer un grand nombre de phrases du pool initial. ABSTRACT. In the context of DUC Conference (Document Understanding Conference) , we have developed an automatic summarization system of multiple documents which is based on the extraction of the key sentences. The proposed method uses a genetic algorithm which combines the sentences of the source documents in order to produce extracts. These extracts will be crossed and mutated in order to generate new extracts. The examination of the results obtained in the two sessions DUC' 04 and DUC' 07 showed a significant variation of the system performance. Indeed, a phenomenon of genetic drift is observed when the system processes big size texts (as an input). In order to solve this problem, we propose to integrate an additional module of sentence filtering to reduce the number of sentences in the input. This filtering is based on the concept of predominance between sentences which allows to eliminate a great number of sentences from the initial pool.
منابع مشابه
فایل کامل مجلّه مطالعات زبان فرانسه دو فصلنامه علمی پژوهشی زبان فرانسه دانشکده زبانهای خارجی دانشگاه اصفهان
Tâ ÇÉÅ wx W|xâ Revue des Études de la Langue Française Revue semestrielle de la Faculté des Langues Étrangères de l'Université d'Ispahan Cinquième année, N° 8 Printemps-Eté 2013, ISSN 2008- 6571 ISSN électronique 2322-469X Cette revue est indexée dans: Ulrichsweb: global serials directory http://ulrichsweb.serialssolutions.com Doaj: Directory of Open Access Journals http://www.doaj.org ...
متن کاملCongenital Cyst and Emphysema of the Lung
Les auteurs rapportent chez deux nourrissons, l'etude anatomo-clinique d'un cas de kystes alveolaires multiples,et d'un cas d'emphyseme lobaire congenital bilateral.Le troisieme cas concerne un kyste bronchog6nique du poumon gauche,decouvert a l'autopsie d'un nouveau-ne. Dans le quatrieme cas,un emphyseme geant du lobe superieur gauche,decouvert dans un contexte infectieux,a l'age de neuf mois,...
متن کاملCalibrage du seuil par linéarisation des scores par intervalles dans un système de filtrage adaptatif
RÉSUMÉ. Dans un contexte incrémental, l’adaptation du profil change la distribution des scores des documents, et doit par conséquent être suivie par l’adaptation du seuil. Dans ce papier, nous proposons une méthode qui permet d’effectuer le seuillage en se basant sur l’estimation de la distribution de probabilités des scores des documents reçus. Les paramètres des lois de probabilités suivies p...
متن کاملRELIEFS : Un système pour le filtrage adaptatif de documents textuels basé sur la notion de résonance
Résumé : Nous présentons le système RELIEFS pour RELevance Information Extraction Fuzzy System dédié au filtrage adaptatif de documents textuels. Ce système s'inspire très largement de mécanismes cognitifs intervenant dans les processus de sélection d'information. En particulier, il implémente l'idée de résonance introduite dans la théorie cognitive ART [GROS 76] qui rend compte de la façon don...
متن کاملClassification de courriers électroniques. Une approche par apprentissage basée sur des modèles linguistiques
RÉSUMÉ. Nous proposons une double amélioration des systèmes de filtrage de courriels existants. D’une part, en utilisant une méthode d’apprentissage automatique permettant à un système de filtrage d’élaborer des profils utilisateur. D’autre part, nous utilisons un ensemble de connaissances linguistiques sous forme de modèles réduits issues de modèles linguistiques de textes. Dans ce contexte, n...
متن کامل